语义细分任务的目的是在像素级别上进行密集分类。深层模型在解决这项任务方面表现出进展。但是,这些方法的剩余问题是空间精度的丧失,通常是在分段对象的边界上产生的。我们提出的模型通过为特征表示形式提供内部结构来解决此问题,同时提取支持前者的全局表示。为了适应内部结构,在训练过程中,我们预测数据中的高斯混合模型,该模型与跳过连接和解码阶段合并,有助于避免换动态偏见。此外,我们的结果表明,我们可以通过提供集群行为并将其组合来通过提供学习表征(全球和本地)来改善语义细分。最后,我们提出的结果证明了我们在城市景观和合成数据集方面的进步。
translated by 谷歌翻译
The study aims the development of a wearable device to combat the onslaught of covid-19. Likewise, to enhance the regular face shield available in the market. Furthermore, to raise awareness of the health and safety protocols initiated by the government and its affiliates in the enforcement of social distancing with the integration of computer vision algorithms. The wearable device was composed of various hardware and software components such as a transparent polycarbonate face shield, microprocessor, sensors, camera, thin-film transistor on-screen display, jumper wires, power bank, and python programming language. The algorithm incorporated in the study was object detection under computer vision machine learning. The front camera with OpenCV technology determines the distance of a person in front of the user. Utilizing TensorFlow, the target object identifies and detects the image or live feed to get its bounding boxes. The focal length lens requires the determination of the distance from the camera to the target object. To get the focal length, multiply the pixel width by the known distance and divide it by the known width (Rosebrock, 2020). The deployment of unit testing ensures that the parameters are valid in terms of design and specifications.
translated by 谷歌翻译
在自动操纵,远程操作或物理人类机器人相互作用期间,四足动物的操纵器在与外部力量打交道时必须合规。本文提出了一个全身控制器,该控制器允许实施笛卡尔阻抗控制,以协调跟踪性能以及对机器人基础和操纵器组的理想合规性。控制器是通过使用二次编程(QP)的优化问题制定的,以对系统施加所需的行为,同时满足摩擦锥限制,单方面力量约束,关节和扭矩限制。提出的策略将平台的手臂和底座取代,从而实施了线性双质量弹簧阻尼器系统的行为,并允许独立调整其惯性,刚度和阻尼特性。使用配备了7-DOF操纵器组的90kg HYQ机器人通过广泛的模拟研究来验证控制架构。仿真结果表明,当在手臂的最终效用器上应用外力时,阻抗渲染性能。该论文介绍了完整姿势条件(地面上的所有腿)的结果,并且首次显示阻抗渲染如何受动态步态过程中接触条件的影响。
translated by 谷歌翻译
上下文感知的str方法通常使用内部自回旋(AR)语言模型(LM)。 AR模型的固有局限性动机是采用外部LM的两阶段方法。输入图像上外部LM的条件独立性可能导致其错误地纠正正确的预测,从而导致明显的低效率。我们的方法Parseq使用置换语言建模学习了具有共同权重的内部AR LMS集合。它统一了无上下文的非AR和上下文感知的AR推断,并使用双向上下文统一了迭代的精致。使用合成训练数据,Parseq实现了最新的(SOTA),从而获得了Str基准(精度为91.9%)和更具挑战性的数据集。在对实际数据进行培训时,它建立了新的SOTA结果(精度为96.0%)。 Parseq由于其简单,统一的结构和平行的令牌处理,对准确性与参数计数,拖放和延迟非常最佳。由于其广泛使用了注意力,它对在现实世界图像中常见的任意导向文本具有鲁棒性。代码,预处理的权重和数据可在以下网址提供:https://github.com/baudm/parseq。
translated by 谷歌翻译
基于机器学习的室内定位引起了学院和行业的越来越多的关注,因为可以从参考数据中提取有意义的信息。许多研究人员正在使用受监督,半监督和无监督的机器学习模型来减少定位错误并为最终用户提供可靠的解决方案。在本文中,我们通过结合卷积神经网络(CNN),长期记忆(LSTM)和生成对抗网络(GAN)来提出一种新的体系结构,以增加训练数据并提高位置准确性。在17个公共数据集中对受监督和无监督模型的建议组合进行了测试,从而对其性能进行了广泛的分析。结果,超过70%的定位误差已减少。
translated by 谷歌翻译
基于深度学习的图像检索技术,用于环路闭合检测呈现令人满意的性能。然而,在不同地理区域的先前经过训练的模型,实现高级别性能仍然挑战。本文讨论了在新环境中同时定位和映射(SLAM)系统的部署问题。普通基线方法使用其他信息,例如GPS,顺序关键帧跟踪,并重新培训整个环境,以增强召回率。我们提出了一种基于先前训练的模型来改善图像检索的新方法。我们提出了一种智能方法MAQBool,用于放大预先训练的模型的功率,以便更好的图像召回及其在实时多轴SLAM系统中的应用。与最先进的方法的高描述符尺寸(4096-D)相比,我们在低描述符维度(512-D)上实现了可比的图像检索结果。我们使用空间信息来提高预先训练模型的图像检索中的召回速率。
translated by 谷歌翻译
使机器人能够靠近人类工作,需要一个控制框架,该框架不仅包括用于自主和协调的交互的多感官信息,而且还具有感知的任务计划,以确保适应性和灵活的协作行为。在这项研究中,提出了一种直观的任务堆叠(ISOT)制剂,通过考虑人臂姿势和任务进展来定义机器人的动作。该框架以visuo-tactive信息增强,以有效地了解协作环境,直观地在计划的子任务之间切换。来自深度摄像机的视觉反馈监视并估计物体的姿势和人臂姿势,而触觉数据提供勘探技能以检测和维持所需的触点以避免物体滑动。为了评估由人类和人机合作伙伴执行的所提出的框架,装配和拆卸任务的性能,有效性和可用性,使用不同的评估指标进行考虑和分析,方法适应,掌握校正,任务协调延迟,累积姿势偏差,以及任务重复性。
translated by 谷歌翻译